روشی کارا برای کاوش مجموعه اقلام پرتکرار در تحلیل داده های سبد خرید
نویسندگان
چکیده
کشف الگوهای پنهان و ارزشمند از درون حجم وسیعی از دادههای خام، اخیراً توجه بسیاری از محققان را به خود جلب کردهاست. اغلب روشهای کاوش قوانین تداعی در مرحله اول کار خود کلیه اقلام پرتکرار (ساده و ترکیبی) را از بین تمام اقلام موجود در دادهها جستجو میکنند که این امر نیازمند به خواندن مکرر کل دادهها از دیسک است. در مسائل دادهکاوی، حجم پایگاه دادههای تراکنش معمولاً آنقدر زیاد است که قابل بار شدن در حافظه اصلی نمیباشند. اما در برخی موارد مانند پایگاه دادههای تحلیلی مربوط به سبدهای خرید یک فروشگاه، با توجه به تعداد نسبتا زیاد اقلام ممکن (کل اجناس فروشگاه) و نیز محدودیت نسبی اندازه تراکنشها (اقلام خریداری شده در هر سبد)، احتمال رخداد یک قلم داده (خریداری شدن یک کالای خاص) پایین است. در این مقاله با بهرهگیری از این ویژگی، روشی کارا برای کاوش اقلام پرتکرار در مجموعه دادههایی از این قبیل ارائه میدهیم. در روش پیشنهادی، دادهها تنها یک بار از دیسک خوانده میشوند و بعد از آن به یک ساختار رمز شده و خلاصه تبدیل میگردند، بطوریکه اولاً قابل نگهداری در حافظه میباشند و ثانیاً با توجه به ساختار خاصی که دارند، عملیات شمارش به سریعترین نحو ممکن انجام میگردد و زمان شمارش دفعات تکرار اقلام در هر مرحله کمتر از مرحله قبل میشود. پس از ارائه الگوریتم، کارایی آن را با استفاده از دو مجموعه از دادههای ساختگی و واقعی ارزیابی کرده و با چند روش کارا که تاکنون ارائه شدهاند، مقایسه میکنیم.
منابع مشابه
روشی کارا برای کاوش مجموعه اقلام پرتکرار در تحلیل دادههای سبد خرید
Discovery of hidden and valuable knowledge from large data warehouses is an important research area and has attracted the attention of many researchers in recent years. Most of Association Rule Mining (ARM) algorithms start by searching for frequent itemsets by scanning the whole database repeatedly and enumerating the occurrences of each candidate itemset. In data mining problems, the size of ...
متن کاملتجزیۀ نامنفی ماتریسی: روشی برای تحلیل داده های نامنفی
اخیراً روش جدیدی با نام تجزیۀ نامنفی ماتریسی برای نمایش خطی داده های نامنفی پیشنهاد شده است که علاوه بر کاهش تعداد داده ها، محدودیت روش های کلاسیک را ندارد. در این روش، ماتریس بزرگِ متناظر با داده های نامنفی به دو ماتریس نامنفی کوچک تجزیه می شود. در این مقاله، ابتدا روش های کلاسیک را مرور می کنیم. سپس تجزیۀ نامنفی ماتریسی با نسخه های مختلف آن معرفی و مسائل مهم داده کاوی مانند رده بندی و خوشه بند...
متن کاملارائه روشی کارا برای تکرار داده ها در گریدهای داده
گرید داده یک محیط توزیع شده است که با کاربردهای داده متمرکز با حجم بالا سروکار دارد. تکرار داده یکی از تکنیک های کلیدی بهینه سازی برای کاهش تأخیر دستیابی و مدیریت داده های حجیم از طریق ذخیره کردن هوشمندانه کپی های داده است. اگر چه تکرار داده از تکنیک های کلیدی است اما مسئله ی انتخاب محل های مناسب برای قرارگیری تکرارها یعنی مکان یابی تکرار در گرید داده هنوز به صورت وسیعی بررسی نشده است. الگوریتم...
15 صفحه اولروشی جدید در تعیین ورشکستگی با استفاده از تحلیل پوششی داده ها و تئوری مجموعه های راف فازی
در شرایط متغیر اقتصادی و نوسانات شدید مالی در محیط های تجاری، وجود الگوهایی برای پیش بینی عملکرد مالی شرکتها از اهمیت بسزایی برخوردار است. یکی از این موارد پیش بینی وقوع بحران مالی و به عبارت دیگر ورشکستگی است. تحلیل پوششی داده ها (DEA) یک ابزار قدرتمند در اختیار مدیران است که عملکرد شرکت خود را در فعالیت های تجاری محک بزنند. مدلهای مرسوم تحلیل پوششی داده ها ارزیابی کارایی نسبی واحدهای تصمیم گی...
متن کاملبهبود عملکرد واحدهای تصمیمگیرنده کارا با استفاده از روش تقاطع ابرصفحههای سازای مجموعه امکان تولید در تحلیل پوششی داده ها
تحلیل پوششی داده ها (DEA) یک تخمینگر است. این تخمینگر سعی می کند که یک ارتباط بین ورودی های متعدد و خروجی های متعدد و همچنین تکنولوژی تولید را تخمین بزند. DEA واحدهای تصمیم گیرنده (DMU) را به دو بخش واحدهای کارا و واحدهای ناکارا تقسیم بندی میکند. در این صورت واحدهای کارا مرجعی برای واحدهای ناکارا خواهد بود. در مدلهای سنتیDEA بهبود کارایی تنها برای واحدهای ناکارا صورت می گیرد و واحدهای کارا ...
متن کاملتجزیۀ نامنفی ماتریسی: روشی برای تحلیل داده های نامنفی
اخیراً روش جدیدی با نام تجزیۀ نامنفی ماتریسی برای نمایش خطی داده های نامنفی پیشنهاد شده است که علاوه بر کاهش تعداد داده ها، محدودیت روش های کلاسیک را ندارد. در این روش، ماتریس بزرگِ متناظر با داده های نامنفی به دو ماتریس نامنفی کوچک تجزیه می شود. در این مقاله، ابتدا روش های کلاسیک را مرور می کنیم. سپس تجزیۀ نامنفی ماتریسی با نسخه های مختلف آن معرفی و مسائل مهم داده کاوی مانند رده بندی و خوشه بند...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
بین المللی مهندسی صنایع و مدیریت تولیدجلد ۱۹، شماره ۷، صفحات ۶۵-۷۴
کلمات کلیدی
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023